ここ で は , 米国 Altera 社 の 「Nios II C-to-Hardware 
Acceleration Compiler」 を 取り 上 げ る . これ は , ANSIC ソ フ 
トウ ェ ア ・ コ ー ド か ら , ハー ド ・ ワ イヤ ー ド 論理 の アク セラ レー 
夕 回 路 を 生成 する 合成 ツー ル で ある . C 言 語 の ソフ トウ ェ ア ・ 
コー ド の うち , ユー ザ が 指定 し た ファ ンク ショ ン (サブ ルー チン ) 
を RTL(Register Transfer Level) の 回 路 (VHDL また は 
Verilog HDL) に 変換 する . C ソ ー ス ・ コ ー ド を 書き 換え な く て 
も 使え る が , より 高い 性 能 を 得る た め に は ガイ ドラ イン で 示さ 
れ た 推奨 コー ディ ング ・ ス タイ ル に 従う 必要 が ある . そこ で 本 
稿 で は , C ソ ー ス ・ コ ー ド の 記述 の 違い に よる アク セラ レー ショ 
ン 効 果 の 差 に つい て , 例 を 挙げ な が ら 説 明 す る . (編集 部 ) 


今日 の 製品 開発 に お いて は , 早期 の 市 場 投入 を 実現 する 
た め に , 開発 期間 の 短縮 が 求め られ ます . し か も 競争 力 を 
高め る た め に は , 性 能 の 向上 は 欠か せま せん . この た め , 
シス テム 設計 に お いて は , ソフ トウ ェ ア と ハー ド ウェ ア の 
切り 分 けが 悩み どこ ろ に な っ て いま す . 一 般 に は , ボトル 
ネッ ク と な る 処理 を ハー ド ウェ ア 化 し , 残り を ソフ トウ ェ 
ア 処 理 に し ます . 

本 稿 で は , ソフ ト ・ マ クロ の CPU を 実装 する FPGA の 
設計 を 想定 し , ソフ ト ウェア 処理 部 の ボトル ネッ ク の 解消 
方 法 の 一 例 を 紹介 し ます . 使用 する CPU コア は , 米国 
Altera 社 の Nios TL」 で す . また , Nios IT の 開発 ツー ル と 
し て 提供 され て いる 「 Nios IL Cto-Hardware C2H) 
Acceleration Compiler」 を 活用 し ます . 

Nios II C2H Acceleration Compilek 以降 C2H」 と 呼 
ぶ ) は, C 関 数 を ハード ウェ ア ・ ア クセ ラレー タ に 変換 す 


る 合成 ツー ル で す . ソフ ト ウェ ア 処 理 を ハー ド ウェ ア 化 す 
る の で , 動作 周波 数 を 上 げ ず に 性 能 を 向上 する こと が 期待 
で きま す . Nios II の 開発 環境 Nios IL IDE, Quartus IL, 
MegaCore) が あれ ば 使用 で きま す . 

C 関 数 の ハー ド ウェ ア 化 の た め の 操 作 は , 基本 的 に は マ 
ウス で 右 ク リッ ク を 行う だ け で す . C 関 数 を ハード ウェア 
に 変換 し , Avalot Altera 社 の 独自 オン チッ プ ・ バス ) に 
統合 し ます . 合成 し た ハー ドウ ェ ア に アク セス する 関数 

( ラッ パ 部 ) の 生成 や ソフ トウ ェ ア の ビル ド を 行い ます . た 
だ し , C2H に よる アク セラ レー ショ ン 効 果 は , C ソ ー ス ・ 
コー ド の 記述 の し か た に よっ て 異な り ま す . 

そこ で 本 稿 で は , C ソ ー ス ・ コ ー ド の 記述 の し か た と 
C2H に よる アク セラ レー ショ ン 効 果 に つい て , 実際 の コー 
ド を 用 いて 説明 し ます . C ソ ー ス ・ コ ー ド と し て は , sobel 
フィ ル タ と 呼ば れる 画像 の 水平 領 人 エッ ジ 検 出 ) を 行う プ 
ログ ラム を 用 いま す . Nios IL の 開発 環境 は ver.70 を 使用 
し ます . 


1. ボトル ネッ ク の 抽出 を 行う 


ソフ ト ウェ ア 処 理 に お ける ボ ト ルネ ッ ク の 抽出 は , ソフ 
トウ ェ ア 開 発 ツ ー ル の 持つ 機能 で 行え ます . 例え ば GNU 
コン パイ ヌ ( gcc) を 使用 する 場合 は , オプ ショ ン -pg を 付 
け て コン パイ ル し , 実行 する だ け で す . 生成 され た モニ タ 
リン グ ・ フ ァイル (gmon.out) に は , 関数 な どの 実行 時 間 
が 示さ れ て いる の で , これ で 確認 し ます . 

Nios の ソフ ト ウェ ア 開 発 用 に 用 意 さ れ て いる コン パイ 


Ord FPGA, Nios 中, C2H, ANSIC, ソフ ト ・ マ クロ , CPU コア , Sobel フ ィ ル タ , エッ ジ 検 出 
L| | 
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ラ 信 。 CGNU コ ン パ イラ を ペー スズ と し て の い ます. 従っ て , 
Nios II IDE 上 か ら , オプ ショ ン の 指定 を 行え ば よい こと 
に な り ま す . 具体 的 に は , Nios IL IDE 上 か ら System 
LibrarX 図 1) を 開き ,「 Link with profiling Hibrary」 を 


チェ ッ ク し ます . これ に より , gcc の -pg オプ ショ ン が 有効 
に な り ま す . 

この 後 , Build make コ マン ド 相当 ) を 行い , 実行 する と 
2 の よう に gmon.out が 得 ら れ ま す . gmon.out の うち , 
time 欄 は , 実行 時 の 要 し た 時 間 を 割 八 % ) で 示し た も の 
で す . 関数 な ど に 分 け て 示さ れ ま す . 

2 の 例 で は , specia1 F11ter と a1t irq_ 
reg1gster の 二 つ の 関数 で 全体 の 処理 時 間 の ほとん ど を 要 
し て いる こと が 分 か り ま す . 今回 は specia1 fi1ter を 
ハー ド ウェア 化 対象 関数 と し て 扱い ます . 


2. C2H の 制約 と チュ ー ニ ング の ポイ ント 


C2H は ANSI C を サポ ー ト し て いま す . た だ し , ハー ド 
ウェ ア 化 ツー ル の た め , printfF を はじめ と する 標準 関数 
は サポ ー ト し て いま せん . 本 策 執 筆 時 の 制約 事項 は 以下 の 
通り です. 

e prirntF, memcpy な どの 標準 関数 

e ハー ド ウェ ア 化 に 適さ な い 関 数 の 再起 呼び 出し 

e 浮動 小数 点 演算 将来 サポ ー ト 予定 , ペリ フェ ラル と し 
て 実装 する こと で 可能 ) 

e 関数 か ら の サブ 関数 呼び 出し 

C2H を 効果 的 に 活用 する た め に は , 以下 で 説明 する 各 項 
目 に 対応 する 必要 が あり ます . 実際 の 設 識 チュ ー ニ ング) 
で は , 要求 性 能 を 満た す 段 階 まで 対応 すれ ば よく , すべ て 
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図 1 System Library 画面 
「 Link with profiling library」 を チェ ッ ク す る と gcc の -pg オ プシ ョ ン が 有効 に 
な る . 


⑯ ソー ス ・ コ ー ド の 分 離 

デバ ッ グ 効率 を 上 げ る た め に , ソー ス ・ コ ー ド の 分 離 を 
行い ます . 

コン パイ ラ は , ソー ス ・ フ ァイル 単位 で コン パイ ル を 行 
いま す . そこ で , ハー ド ウェ ア 化 対象 関数 を 別 フ ァイル に 
分 割 し て お きま す . こう する こと で , 期待 通り に 動作 し な 

` 場 合 に , 問題 が ハー ド ウェ ア 側 に ある の か , ソフ トウ ェ 
ア 側 に ある の か の 切り 分 け を し や すく なり ます . 

また , C2H に より 合成 され た ハー ド ウェ ア の 信頼 性 を 上 


げ る た め , ハー ド ウェ ア 化 対象 関数 で は , ソフ ト ウェ ア の 
段階 で ワー ニン グ を な くし て お きま す . 
今回 の 例 で は , ハー ド ウェ ア 化 対象 関数 を target 


| 


央 


0 が 1 1 1 ーー 由 
図 2 プロ ファ イヌ gmon.out) 


モニ タリ ング ・ フ ァイル gmon.out は , main 関 数 か ら returmn さ れる と き に 生 
成 さ れる . 
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_HW.cC と し て 独立 させ まし た . 


@ 未 サ ポー ト 記 述 は 使用 し な い 

C2H は , printf な どの 標準 関数 や 再起 呼び 出し , 浮動 小 
数 点 演算 , 関数 の ポイ ンタ , break, continmue, goo, 
_ as "") な どの 記述 を サポ ー ト し て いま せん . ハー ド 
ウェ ア を 合成 する た め に は , 未 サ ポー ト 記述 が 含ま れ て い 
な いか を 確認 し て お く 必要 が あり ます . 
今回 の 例 で は , オリ ジ ナ ル ・ コ ー ド 内 で は 浮動 小数 点 変 


【 


リス ト 1 複数 の グロ ー バ ル 変 数 を 引き 数 と し て 与え る 
( a) オリ ジ ナ ル の C コ ー ド 


Yo1d speoia1 Fi1ter (vo1d) { 


( b) 修正 後 の C コ ー ド 


Yo1d speo1a]1 Fi1ter( in x size1, in y size1, 


image1 [256] [256] , 1mage2 [256] [256] ) { 


リス ト 2 シン プル な コー ド に する 
( a) オリ ジ ナ ル の C コ ー ド 


For (y=1 ys<y_S1ze1-1 : マ ++) { 
For (=1 : x<x 81ze1-1 :X++) { 
pixxe] Va1ue2=0: 

pixxe] va1ue2 = pixre] Va1ue2 + 
* 1mage1 
pxce1 Ya 1 _va1ue2 + 
* 1mage1 
pxe1 Ya 1 _va1ue2 + 
* 1magde1 [y- 1] 
pxce1 Ya 1 ue2 + 
* 1mage1 [y] [x- 
pxee1 Ya 1 _Yva1ue2 + 
* 1mage1 [y] [xx] : 
pxce1 Ya 1 _va1ue2 + 
* 1maqge1 [y] [x+1] : 
pxce1 Ya 1 _va1ue2 + 
* 1magde1 [y+1] [x- 
pxce1 Ya 1 ue2 + 
* 1maqe1 [y+1] [xx] 
pxee1 Ya 1 ue2 + 
1mage1 [Y+1] [x+1] : 
1E (pixe1 ya1ue2<min2) mtn2 = pixxe] Va1ue2: 
1fE (pixe1 ya1ue2>max2) maxx2 = pixxe] Va1ue2: 


) 


( b) 修正 後 の C コ ー ド 


For (y=1 ys<y_S1ze1-1 : マ ++) { 
For (=1 :x<xx 81ze1-1 :X++) { 

pixe1 value2=0 : 

for (1=-1 1<2j エ ォ +) 人 ( 

for (=-1 <2 j++) { 
pixxe1] va1ue2 = pixe] va1ue2 + 
wetght [1 ュ +1] []+1] * image1 [y+1] [x+]] : 
) 


) 
1E (pixe1 ya1ue2<min2) mtn2 = pixxe] Va1ue2: 
1f (pixxe1 va1ue2>max2) max2 = pixxe] Va1ue2: 


) 
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数 doub1e) が 使用 され て いま し た . そこ で , double 宣 
言 を int 宣言 に 修正 し まし た . 


@⑱ ハー ドウ ェ ア 化 に 適さ な い 記 述 の チェ ッ ク 

グロ ー バ ル 変 数 や スタ ティ ッ ク 関 数 を 使用 する と , ハー 
ド ウェア 合成 時 に 冗長 回 路 を 生成 し て し まい ます . ハー ド 
ウェ ア 化 の 対象 関数 で これ ら が 用 いら れ て いる 場合 , 引き 
数 と し て 与え る よう に 修正 し ます . 

また , C 関 数 の ソー ス ・ コー ド が 200 行 以上 の 場合 は , 
関数 の 分 割 を 検討 し ます . 

今回 の 例 で は , 複数 の グロ ー バ ル 変 数 が 使わ れ て いま し 
た . これ を 引き 数 と し て 与え る た め , リス ト 1 の よう に 修 
正 し ま し た . 


⑱ ハー ドウ ェ ア 化 に 向い た 記述 に 変更 

より 性 能 の 高い ハー ド ウェ ア を 合成 する た め に , C2H に 
は 推奨 コー ディ ング ・ ス タイ ル が あり ます . 例え ば , 1 行 
に 複数 の 演算 が ある 場合 は , 複数 の 行 に 分 け て 記述 し ます . 
また , 2 重 ル ー プ な どの 内 側 の ルー プ で は , サブ 関数 を 使 
用 し な いよ うに し ます . 

ソフ ト ウェア 的 な 最適 化 で は , 繰り 返し 回 数 の 少な い 
ルー プ を 外し て 記述 する こと が あり ます . し か し C2H で 
は , ハー ドウ ェ ア ・ リ ソー ス が 増え る の で , シン プル な 
コー ド に し まず リス ト 2). 


@ C2H に 特有 の 記述 を 追加 

ポイ ンタ を 使用 し て いる 場合 , ハー ドウ ェ ア で は バス ・ 
マス タ と し て 合成 され ます . ここ で , 複数 の ポイ ンタ 変数 
の 参照 する 可能 性 の ある アド レス 領域 が オー バラ ッ プ し て 
いる と C2H が 判断 する と , バス ・ ア クセ ス が 制限 され て し 
まい ます . 

そこ で , ポイ ン 包 バス ・ マ スタ ) 参照 する アド レス が 重 
複 し な いこ と が あら か じ め 分 か っ て いる 場合 は , 
_ restrict と いう 修飾 子 を 使用 し て , 依存 関係 を 制 
御 し ます . この 記述 に より , バス ・ マ スタ の アク セス が 制 
限 さ れ な く な り ま す . 今回 は , リス ト 3 の よう な 修正 を 行 
いま し た . 

また , #pragma 修飾 子 を 使用 する こと で , マス タ の 接 
続 先 を 制御 で きま す . 例え ば , 関数 名 / 変 数 名 を sdram に 
対し て アク セス する 場合 は , 以下 の よう に 記述 し ます . 


#pradma a1Eera_aCCe] ら GraG 


conmeo 


ィ イ IF 3( 
六 果 0 に 全う 5 


リス ト 3 ポイ ンタ 変数 を 制御 する 
( a) オリ ジ ナ ル の C コ ー ド 


1n 七 ま a: 


( b) 修正 後 の C コ ー ド 


nt * regt エ 1o 上  a: 


Yariab1e Specta] F11Eter/1mage1 モ O 


8dram 


⑱ ハー ドウ ェ ア 処 理 に 向い た アル ゴリ ズム に 修正 

ポイ ン 包 バス ・ マ スタ ) は , アド レス の アラ イメ ント を 
行う こと で , 高 効率 の デー タ 転送 が 期待 で きる よう に な り 
ます 。 

また , 多重 ルー プ を 1 重 化 す る と , パイ プラ イン の 効率 
が 上 が り ま す . これ は , ルー プ 動 作 を パイ プラ イン 処理 に 
変換 する た めで ず リス ト ④). 


⑱ ハー ドウ ェ ア ・ リ ソー ス を 節約 する 工夫 

Nios LT は 32 ビ ッ ト の RISC プ ロ セ ッ サ で す . 0 31 の 範 
囲 で し か 変化 し な いと 分 か っ て いる 変数 で あっ て も , int 
宣言 する と , 32 ビ ッ ト 幅 の デー タ と し て 合成 され て し まい 
ます . 取り 得る 値 が 0~ 31 で あれ ば 5 ビッ ト で よい の で , 
残り の 27 ビ ッ ト が 無駄 に な か つっ て し まい ます . この よう な と 
き , AND で マス ク す る 記述 を 加え る と , 使用 する ハー ド 
ウェ ア ・ リ ソー ス を 減ら せま す . 

今回 は , リス ト 5 の よう な 修正 を 行い まし た. 


3. ハー ドウ ェ ア 化 の 効果 を 調べ る 


評価 する 前 段階 と し て , 基準 に な る デー タ が 必要 に な り ま 

す . そこ で , オリ ジ ナ ル の C ソ ー ス ・ コ ー ド を 基準 と し て , 
に よる ハー ド ウェ ア 化 の 効果 に つい て 調べ て み ま す . 

比較 に 当たり , 基準 と し た の は , オリ ジ ナ ル の C ソ ー 
ス ・ コ ー ド に 対し て ファ イル 分 離 と 未 サ ポー ト 記述 の 修正 , 
適さ な い コ ー ド の 確認 の 3 項目 の 変更 を 行っ た も の と し ま 
す . つま り dgoub1e 型 の 変数 を int 型 に し て , ハー ドウ ェ 
ア 化 以降 と 同じ 処理 を 行う ソフ トウェア ・ コ ー ド を 基準 に 
し ます . 

基準 と な る ソフ ト ウェ ア ・ コ ー ド の 実行 時 間 を 測定 する 


リス ト 4 多重 ルー プ を 1 重 化 す る 
( a) オリ ジ ナ ル の C コ ー ド 


For (=1 :Y<y_81ze1-1 :++) { 
For (x=1 :x<x 81ze1-1 x++) { 
pixxe] va1ue2=0: 
For ( ユ =-1 1<2: ユ ++) 【 
For (=-17]<2 7]++) { 
pixe] va1ue2 = pxce] va1ue2 + 
wetighEt [1+1] []+1] * 1mage1 [Y+1] [x+]] : 


1 
1fF (pixxe] va1ue2<m1n2) min2 pixe] value2: 
1fF (pixxe1 va1ue2>maxx2) max2 pixe] value2: 


] 


( b) 修正 後 の C コ ー ド 


For (=1 :Y<y_81ze1-1:  ){ 
pxee] va1ue2 = pxce] va1ue2 + we1ght [1+1] []+1] 
* 1mage1 [y+1] [x+]] : 
1E (<1) { 


1 (1==2) { 
エニ ー1 : 
if (x<(x_gize1-2) ) { 
オオ 』 


| 


e1se{ 


マキ + ょ 
=1 : 
} 
1F (pixe1 va1ue2<mtn2) min2 pixe] value2: 
1F (pixe1 va1ue2>maxx2) maxx2 pixee] va1ue2: 
pixxe] va1ue2=0: 


リス ト 5 未 使用 ビッ ト を AND で マス ク す る 
( a) オリ ジ ナ ル の C コ ー ド 


un 8 data = coa1o daa: 


( b) 修正 後 の C コ ー ド 


unt 8 data = oa1o data & OxtfF: 


と , 256305406 サ イク ル と な り ま し た . 
また , 同じ コー ド を C2H で ハー ド ウェ ア 化 する と , 実行 
\ 間 は 25.798491 サ イク ル で し た . いき な り 約 10 倍 程度 改 
善 の 効果 が 得 ら れ ま し た . 今回 の 各 段 階 に お ける 結果 を 表 
に まとめ ます . 参考 まで に , チュ ー ニ ング に か か っ た 時 
間 工数 ) も 示し て いま す . 
C2H が 出力 し た レポ ー ト を 図 3 に 示し ます . CPLI 
( Cycles Per Loop Iteration) が 高い 部 分 は , まだ チュ ー ニ 
ング の 可能 性 が 残さ れ て いる こと を 意味 し ます . レポ ー ト 
の 右側 に は , CPLI 値 を 小さ くす る た め の 修 正 案 が 書か れ 


政 
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表 1 チュ ー ニ ング 結果 


トド ト g 品 
チュ ー ニ ング 内 容 ー 


C2H 


初期 状態 単純 実行 


C2H 向き 記述 


C2H 特有 記述 ハー ド を 意識 リソー ス 節 約 


LE 数 換算 ) 4628 15105 


11.800 12295 12088 11,730 


メモ リ 571,136 573184 


572160 573.184 572160 572160 


DSP ブ ロッ ク 8 48 


48 56 56 44 


サイ クル 数 256305406 25 798491 


24419070 


23679535 11.860512 11.862710 


倍率 10 99 


105 108 21.6 21.6 


工 分 ] 20 


LE: Logic Element 


図 3 C2H が 出力 し た レポ ー ト 
CPLI 値 と 改善 策 が 表示 され る . 


て いま す . 今回 は , C2H を 活用 する 際 に 一 般 的 な チュ ー ニ 
ング 作業 に 注目 し て いる の で , これ ら の 修正 案 に つい て は 
対策 を 施し ませ ん . 実際 の 設計 で , より チュ ー ニ ング が 求 
め ら れる と き に は , この レポ ー ト 結果 を 参考 に する と よい 
で し ょ う 。 

C2H は , ソー ス ・ コ ー ド へ の 修正 を ほとん ど 行 わな く て 
も 性 能 の 改善 が 得 ら れ ま す が , 相応 の ハー ドウ ェ ア ・ リ 
ソー ズ ロジ ッ ク ・ エレメント ) を 必要 と し ます . 

グロ ー バ ル 変 数 を 引き 数 に 修正 する だ け で も , 使用 する 
リソー ス 数 は 減り ます . グロ ー バ ル 変 数 を その まま ハー ド 
ウェ ア 化 し て し まう と , 冗長 回 路 が 生成 され ます . 

性 能面 で 一 番 効果 が ある の は , パイ プラ イン 処理 で す . 
すなわち , 多重 ルー プ の 1 重 化 が 最も 効果 的 で ある こと が 
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分 か り ま す . し か も 今回 の チュ ー ニ ング の 範囲 で は , CPLI 
値 が 1 に な っ て いな い の で , まだ が 高速 化 の 余地 は あり そう 
で す 。 
また 配列 の 記述 の し か た が , C2H で 効果 を 得る た め の か 
ぎ に な っ て いま す . 今回 の 例 の 場合 で あれ ば , 
eveight は 配列 を 使用 せ ず に 直接 引き 数 と し て 渡す か , 関 
数 の 起動 時 に ロー カル 変数 に コピ ー す る . 
e image1 は ロー カル 配列 に コピ ー し て か ら 処 理 す る . 
も まず 。 
さら な る チュ ー ニ ング を する 場合 に , 改善 が 期待 で き そ 
うな 点 を まとめ ます . 
e 乗算 , 除算 を 使用 せ ず に , 加算 , 減算 に 変更 
e 2 倍 は ビッ ト ・ シ フト ( <<) を 代用 
e* ラ イン ・ バ ッ フ ァ の 追加 で , さら に 並列 化 


参考 ・ 引 用 * 文献 
( 1) Altera 社 の C2H の ペー ジ , http://www.altera.com/training/ 
SOpc-designa 
http://Www.altera.com/trainimg/c2h-fundamemtals-a 
( 2) 安居 院 氏 長尾 智晴 : C 言 語 に よる 画像 処理 入門 , 昭 晃 堂 , 2000 年 . 


い が り ・ た か ひろ 
( 株 ) エル セナ 
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